دانش میان‌رشته‌ای علم داده‌ها چیست و چرا در تمامی فناوری‌ها ورود پیدا کرده است؟
۱۴۰۰/۰۳/۰۲ تاریخ انتشار

واژه میان‌رشته‌ای به چه معنا است؟

میان‌رشته‌ای (Interdisciplinary) اشاره به حوزه‌های نوین در دانش دارد که بیش از یک زمینه محض دانشی را مورد مطالعه قرار می‌دهد. روش برخورد میان‌رشته‌ای فرصت عبور از مرزهای سنتی رشته‌های گوناگون دانش را با هدف رسیدن به نتیجه مطلوب در یک رشته فراهم می‌سازد. به عبارت دیگر، یک حوزه میان‌رشته‌ای، عبارت است از تلفیق دانش، روش و تجارب دو یا چند حوزه علمی و تخصصی برای شناخت و حل یک مسئله پیچیده یا معضل اجتماعی چندوجهی. در یک فعالیت علمی میان‌رشته‌ای، متخصصان دو یا چند رشته و دارای تخصص علمی در ارتباط با شناخت، حل، یا تحلیل یک پدیده، موضوع یا مسئله معمولاً پیچیده و واقعی با یکدیگر تعامل و همکاری علمی می‌کنند؛ بنابراین، فعالیت‌ علمی میان‌رشته‌ای زمانی معنا پیدا می‌کند که شناخت و فهم علمی و دقیق پدیده یا مسئله‌ای پیچیده یا ناشناخته که از ظرفیت و دانش یک رشته یا تخصص خارج است، هدف باشد. 

تاریخچه کوتاهی در ارتباط با علم داده‌ها 

عبارت علم داده بیش از یک دهه است که ارائه شده است. ویلیام کلیولند اولین کسی است که اصطلاح علم داده را در سال ۲۰۰۱ مطرح کرده‌است. وی در مقاله «علم داده: برنامه‌ای برای گسترش جنبه‌های فنی در رشته آمار» پیشنهاد کرد که علم داده به عنوان یک رشته مستقل شناخته شود. کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و داده‌کاوی می‌دانست. وی بر این باور بود که منافع استفاده از یک تحلیلگر داده محدود است. چون مهندسین کامپیوتر شناخت کمی از روشهای کار با داده دارند و دانش محاسباتی متخصصین آمار هم محدود است؛ بنابراین تلفیق این دو گروه می‌تواند منجر به نوآوری‌های زیادی شود. دپارتمانهای علم داده باید اساتیدی داشته باشد که بتوانند دانش داده‌ها را با دانش محاسبات تلفیق کنند. با این که عبارت علم داده عبارت جدیدی است، این حرفه سالهاست که وجود داشته‌است. آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذاب‌ترین شغل قرن بیست و یکم» متخصصین علم داده را این‌طور تعریف می‌کنند: کسانی که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار پاسخ سوال های کسب‌وکار را پیدا کرد. استنتون در سال ۲۰۱۳ علم داده را این‌طور تعریف می‌کند: علم داده رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد. دریسکول در سال ۲۰۱۴ علم داده را این‌طور تعریف می‌کند: علم داده مهندسی عمران داده‌هاست. متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.

چه کسی را یک دانشمند داده می‌گوییم؟

به افراد شاغل در حوزه علم داده، دانشمند داده (data scientist) می‌گوییم. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده ‌است در صورتی که سال‌ها قبل از آن که آن‌ها استفاده از اصطلاح فوق را به‌طور عمومی مطرح کنند از آن استفاده شده‌است. چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژه متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشته علمی، مسائل پیچیده مطرح شده در حوزه داده را حل می‌کنند. 

چه مدت زمانی طول می‌کشد تا فردی به یک دانشمند علم داده‌ها تبدیل شود؟

به‌طور کلی انتظار می‌رود که متخصصین علم داده قادر باشند در بخش‌هایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک متخصص علم داده می‌بایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزه‌ها دارای مهارت کافی باشد. نتایج نظرسنجی‌ها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است. 

یک دانشمند داده چه مهارت‌هایی دارد؟

دانشمندان داده می‌توانند مهارت‌هایشان را برای دست‌یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارت‌ها به شرح زیرند:

  • توانایی استخراج و تفسیر منابع داده
  • مدیریت حجم زیاد اطلاعات با سخت‌افزار
  • محدودیت‌های نرم‌افزاری و پهنای باند
  • ادغام منابع داده با یک دیگر
  • تضمین پایداری مجموعه‌های داده
  • مصورسازی داده برای فهم آن
  • ساخت مدل‌های ریاضی با استفاده از داده، مانند مدلهای ریگرسیون و طبقه‌بندی
  • مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون آ/ب
  • به اشتراک گذاری یافته‌ها و دیدگاه‌ها در حوزه داده با متخصصان دیگر یا مخاطب عام

پر کاربردترین ابزارها در حوزه علم داده‌ها

نرم‌افزارها، ابزارها، زبان‌ها و چارچوب‌های مختلفی برای کار با داده‌ها در اختیار دانشمندان داده‌ها قرار دارد که از مهم‌ترین آن‌ها به موارد زیر باید اشاره کرد:

زبان برنامه نویسی آر

  • R، یک زبان برنامه‌نویسی و محیط نرم‌افزاری برای محاسبات آماری و علم داده‌ها است، که بر اساس زبان‌های اس و اسکیم پیاده‌سازی شده‌است. این نرم‌افزار متن باز، تحت اجازه‌نامه عمومی همگانی گنو عرضه شده و به رایگان قابل دسترس است. R، حاوی محدودهٔ گسترده‌ای از تکنیک‌های آماری (از جمله: مدل‌سازی خطی و غیرخطی، آزمون‌های کلاسیک آماری، تحلیل سری‌های زمانی، رده‌بندی، خوشه‌بندی و غیره) و قابلیت‌های گرافیکی است. در محیط R، کدهای ویژوال بیسیک، سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره می‌توانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.

پایتون

  • پایتون یک زبان برنامه‌نویسی شیءگرا، تفسیری، سطح بالا، و همه منظوره است، که خیدو فان روسوم آن‌را طراحی کرده‌است و اولین بار در سال ۱۹۹۱ منتشر شده‌است. فلسفه اصلی طراحی پایتون «خوانایی بالای کد» است و نویسه‌های فاصله خالی در آن معنادار هستند و مکرر استفاده می‌شوند. ساختار زبانی و دیدگاه شیءگرا در پایتون به گونه‌ای طراحی شده‌است که به برنامه‌نویس امکان نوشتن کد منطقی و واضح (بدون ابهام) را برای پروژه‌های کوچک و بزرگ می‌دهد.

وکا

  • وکا (Weka) نام یک نرم‌افزار آزاد است که شامل مجموعه‌ای از الگوریتمهای یادگیری ماشینی و داده‌کاوی می‌شود. این ابزار در دانشگاه وایکاتو در کشور نیوزلند توسعه داده شده است. وکا در تحلیل داده‌های عظیم کاربرد دارد.

جاوا

  • جاوا (Java) یک زبان برنامه‌نویسیِ شیءگرا است که نخستین‌بار توسط جیمز گاسلینگ در شرکت سان‌مایکروسیستمز ایجاد گردید و در سال ۱۹۹۱ به‌عنوان بخشی از سکوی جاوا منتشر شد. زبان جاوا شبیه به سی‌پلاس‌پلاس است؛اما مدل شیءگرایی آسان‌تری دارد و از قابلیت‌های سطح پایین کمتری پشتیبانی می‌کند. ایدهٔ شیءگرایی جاوا از زبان اسمال‌تاک گرفته شده‌است. یکی از قابلیت‌های بنیادین جاوا این است که مدیریت حافظه را به‌طور خودکار انجام می‌دهد. ضریب اطمینان عملکرد برنامه‌های نوشته‌شده به این زبان نسبت به زبان‌های نسل اول C بالاتر است. برنامه‌های جاوا به صورت بایت کد می‌شوند و توسط ماشین مجازی جاوا (JVM) به کدهای ماشین تبدیل و اجرا می‌شوند. در صورت وجود JVM مانند سایر زبان‌های مبتنی بر آن که وابسته به سیستم‌عامل خاصی نیستند برنامه‌های نوشته شده به جاوا بر روی هر نوع سیستم عامل و هرگونه وسیله الکترونیکی قابل اجرا می‌باشند. شعار جاوا «یک‌بار بنویس و همه‌جا اجرا کن» (Write once, Run anywhere) است که به همین ویژگی اشاره دارد. این ویژگی جاوا را مستقل از سکو می‌نامند.

گنو آکتیو

  • گنو آکتِیو (GNU Octave) زبان برنامه‌نویسی سطح بالایی است که بیشتر برای محاسبات عددی به کار می‌رود. این برنامه امکانات زیادی را از طریق رابط خط فرمان (به انگلیسی: Command-line interface) برای حل عددی مسائل خطی و غیر خطی می‌دهد. این برنامه را می‌توان جایگزین مناسبی برای همتای غیر آزاد خود متلب به حساب آورد. سایلب نیز دومین جایگزین برجسته متن‌باز و رایگان متلب به‌شمار می‌رود که نسبت به گنو آکتیو تکیه کمتری بر سازگاری (دو سویه) دستورها با متلب دارد.

جولیا

  • جولیا یک زبان برنامه‌نویسی پویا و سطح بالا است که بیشتر برای مقاصد محاسبات حجم بالای علمی مورد استفاده قرار می‌گیرد. البته از جولیا می‌توان به عنوان زبان برنامه‌نویسی همه منظوره نیز استفاده کرد. از ویژگی‌های جولیا باید به متن باز بودن، مانند زبان لیسپ هومویکونیک است، به این معنا که کدهای برنامه نیز داده‌هایی از برنامه به‌شمار می‌روند، که امکان تولید کدهای برنامه‌نویسی پویا را به برنامه‌نویس می‌دهد، در تعریف توابع بسیار قوی و انعطاف‌پذیر است، که امکان تعریف رَویه‌ها و عملگرهای محاسباتی جامع برای ساختارهای داده متفاوت را فراهم می‌آورد، دارای قابلیت‌های سطح پایین کنترلی و محاسباتی است، که سرعت اجرا را تا حد زبان‌های با نوع داده ایستا مانند سی یا فرترن افزایش می‌دهد، دارای سیستم مدیریت بسته ‌است، دارای قابلیت فراخوانی توابع پایتون با استفاده از بسته PyCall است، دارای قابلیت فراخوانی مستقیم توابع سی است، نوع داده‌های تعریف شده به وسیله کاربر سرعت و فشردگی انواع توکار زبان را دارند، پشتیبانی بهینه از یونی‌کد شامل UTF-8 و برای یادگیری و کاربری ساده اشاره کرد. 

 

به این مطلب چند ستاره می‌دهید؟(امتیاز: 4.5 - رای: 1)

ثبت نظر تعداد نظرات: 0 تعداد نظرات: 0
usersvg